查看原文
其他

带宽运营,皆为错峰

曹亚孟 云算计 2021-11-14

 引言 


本文是对《云平台的成本优化-提升资源利用率》的硬核实践。


有个传说,古罗马两匹马屁股的间距,决定了马车轴距、铁路宽度、隧道宽度,最终决定了陆基运载火箭的喷口直径。

对于带宽产品的资源运营,也有个类似的根源,那就是带宽以峰值为计费基准

无论读者的角色是云厂商/IDC/CDN还是大型用户,无论产品是BGP、单线、CDN还是边缘计算,只要我们在带宽类产品上消费额过了千万,我们就需要关注带宽运营和产品设计的根源是错峰。




1. 带宽三惊

惊吓惊喜和惊讶

对于大带宽云产品,我先总结出三个略带惊讶的真相。
1. 惊吓:运营商千万别降价
每个云厂商都梦想着自己拿到便宜带宽——这里的主语是“自己”而不是“便宜”。如果运营商将带宽价格普调性降低,那会是一场横扫整个云行业的灾难。其他大营收的云产品也别笑,硬件和电费降价,你们也一样尴尬2. 惊喜:带宽生意要大小搭配
大部分toB产品都可以只做大客户,但带宽类产品最好是大小搭配。大客户让云厂商有做带宽生意的体量、也能腾挪出海量流动资金,但小客户错开了日峰3. 惊讶:成本真的估不精细
多线BGP的成本都是估算的,调优的效果更是一片动态迷雾。广域网互联是一个无中心的协商系统,线路成本更是超出技术范畴之外,月峰值也在给冗余的伤口撒盐。toB产品都可以只做大客户,但带宽类产品最好是大小搭配。



2. 计费繁琐 难题和操作空间


带宽不是资源,带宽本质上是运营商做的一层规则限制。


运营商的根本计费规则就是“按月峰值计费”,即按照每月最大使用的那个水位线计费,在此基础上涌现出多种变体:

  • 无保底峰值计费,最简单的用多少量给多少钱,可以演化成无保底流量计费。

  • 有保底峰值计费,要收个最低月租费,比如保底1G带宽就是实际用300M也是收1G的钱。

  • 95峰值计费,5%的最高用量被掐尖抹掉,避免偶发高峰造成大账单。

  • 保底后突发流量价格变高,这是供应商鼓励你多交计划内月租,少搞突然袭击。

  • 保底后突发流量价格变低,这是供应商鼓励你资源用的越多越好,最好每根线都用到满载。

  • 固定带宽计费,客户掏的钱都是保底值,但过保底0.01%就会被限流。因为打点统计的粒度太粗,肯定会漏过真实带宽最高峰,而限流丢包时所有数据包等比例随机丢弃,所以大家只敢用到固定带宽的50%-85%。

  • 共享带宽计费,大家肯定以为这种方式早被淘汰了,但是过去租U位共享100M和现在买云主机共享5M带宽有区别吗?


肯定有读者嫌弃上文太复杂了,想要求必须是“无保底流量计费”——这就是“我可以接受涨价”或者“没流量就不卖给你”的意思。

除了计费规则之外,带宽成本还有到特定区域比例限速、跨国跨区域合并保底、楼内线成本、跨运营商冗余方案等等一大堆问题和解决方法。这些复杂的规则,让掌握带宽计费规则成为高智商专业性工作,留给了云厂商、大型互联网厂商的采购、产品、运营、运维极大的难题,也留下了极大的操作空间





3. 现在的带宽 浪费为主也有复用


在成本不准、需求不准、甚至效果也不准的前提下,带宽错峰仍然是有实操的思路和原则。日峰(含周峰)是我们以低成本保持安全冗余的前提条件,避免出现新的月峰是省钱的目标,而上传错峰是带宽厂商梦想的新金矿。    1. 日峰值错峰求安全日峰错峰的目的是保证不超过带宽上限,保证始终有富裕带宽平稳运行。网络服务是超过限速流量,就会出现大范围丢包的严重事故,加上测量不准流控不精,我们只敢用到带宽上限的70%以下。有些运营商是1:3以上的保底突发比例,大家用起来就比较放心,但有些运营商突发比例给的很小,甚至只给固定带宽,这时错峰就是刀尖上跳舞的刚需了。还好不同用户的业务高峰并不相同,有白天的有晚上的甚至有后半夜的,不同用户错开业务高峰,让业务量始终没漫到带宽上限;用户错峰行为主要体现在日峰,个别会体现在周峰。肯定有朋友说,我只在白天和后半夜用带宽,因此能不能打折?这句话理论上是对的,但是有两个现实问题,一是错不开峰值怎么停掉廉价带宽,二是上游运营商是按照月峰计费的。

2. 月峰值的冒尖和浪费
运营商的费用结算是按照月峰进行的,如果某天某线的月峰突发很高,这个月其他时间的日常错峰就没有节省成本的意义了。
  • 对于用量突增导致的月峰,因为有用户买单所以皆大欢喜;

  • 对于短期DDOS攻击导致的月峰,运气好能找供应商撒娇抹一下账单;

  • 如果A线路故障导致B线路突发峰值,A线路的赔偿款可填不平B线路的突发账单。


月峰在发生前很难压住别冒尖,但在冒尖之后又缺乏好办法规避浪费。我们很难做到因为某线路出现了月峰冒尖,接下来就刻意多用此线路。如果强行往月峰发生线缆上导流量,会面临着三个问题:
  • 首先,要确认这个计费月还有几天空闲;

  • 然后,我们要小心该线路日峰爆仓出故障;

  • 最根本的问题是:其他被抽掉流量的线缆也是保底加月峰付费。


月峰冒尖和浪费的根本原因是:
  • 需求侧不可控只能被动响应;

  • 可调度的对象只有几个运营商的网口;

  • 技术调度方法又非常笨拙缓慢



3. 上行带宽的商业化运营商售出的IDC带宽是上下行对称,上下行中按用量最高的取值。但实操的过程中,IDC上行带宽基本就是赠送的,用量最大的肯定是下行带宽。CDN带宽上下行不对称,但上行带宽也一直够用。这几年直播火爆,因为直播业务只能回源无法缓存,CDN上行带宽终于用起来了;随着家用IOT场景的日渐普及,曾经闲置的IDC上行带宽逐渐紧俏起来。各个云平台公开的云主机裸金属,都很精明的写出是买下行带宽赠送上行带宽。随着5G类应用的日渐深入,这个赠送的带宽早晚也要变成收费,届时上下行错峰复用会成为带宽产品的新利润增长点。



4. 数据和产品带宽运营的展望

带宽运营的现状是纠结和浪费,但随着技术进步和行业变化,我们能看到带宽运营在逐渐变得确定和清晰。

1. 精确预估大客户成本
互联网巨头们的客户量固定、业务模式也固定,他们的用户分布、节假日变动都已经是明确的曲线,开拓新国家也有了相对固定的模式。这一些工作让带宽类产品可以相对精确的预估大客户成本,让闲置资源更少、复用资源更多。

我知道多个视频大厂都在研发整理峰值的技术,将留给供应商“AAA”的峰值削成“凹凸凹”的峰值,在我来看这是在缘木求鱼。供应商的利润就来自于错峰复用,一个巨头去整理峰值是蹭其他巨头的便宜,多个大厂都选择“凹凸凹”的峰值,只会导致供应商涨价。

2.线路分组混用互备运营商之间的互联互通能力在向集中化、简单化去演进;国内有信号,欧美已经成为事实,多个IPtransit之间的互备互通机制已经很成熟。我们可以将线路按照运营商进行互备分组,也可以将线路按照延迟等质量系数分类,这些分类至少能解决保底和灾备问题,也有望减少月峰值突发。



3. 精细化监控和敏捷决策
传统带宽监控的粒度太粗,也只用于触发报警和手工决策。带宽监控的正道是准实时监控,有了准实时数据就能有更精细的流控机制,再加上AI技术做敏捷判断和大数据技术做汇总统计,人类调配带宽终会变成自动调配带宽。



4. 从需求侧做新产品我说的新产品包括网络产品的自我优化,也包括应用产品的见缝插针。
同样是为解决日峰值中提到“如何停掉廉价带宽”的问题,可以将流控和QoS做到了IP层,也可以用源IP和端口去标识出“它就是可暂停的廉价带宽”,还要求上层应用天然是高容错可暂停。同样是为了解决链路稳定性问题,可以是专线+冗余+BGP等IP层技术,也可以设计一套传输协议,还可以客户端默认双路推流,还可以在编解码技术上搞容错。
要做出上述新产品,必须说明旧产品线的现状数据,新技术有哪些突破,资源池有哪些临界值。




>> 5. 结束语

带宽运营并不是一个轻松的话题,毫厘间的差错就是真金白银的损失,每一个需求方都在同时索要低价格和高价值。

但正如上一篇文章《云平台的成本优化》中的结束语:

这是难做又有用途的事情,是值得我们努力的方向。


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存